tg-me.com/ds_interview_lib/351
Last Update:
Какие метрики близости текстов вы знаете?
Можно разделить метрики близости текстов на два типа: лексические и семантические.
🔹 Лексические
— Сходство Жаккара (Jaccard similarity)
Это довольно простая метрика. Работает так: берутся две последовательности A и B, далее находится число общих элементов в них и делится на количество элементов обеих последовательностей.
🔹 Семантические
— Косинусное сходство (cosine similarity)
Измеряет косинус угла между двумя векторами, представляющими тексты в векторном пространстве (часто используется TF-IDF векторизация).
— Евклидово расстояние (euclidean distance)
Находится кратчайшая прямая между двумя точками в евклидовом пространстве. Сначала также необходима векторизация.
#NLP
BY Библиотека собеса по Data Science | вопросы с собеседований
Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283
Share with your friend now:
tg-me.com/ds_interview_lib/351